在本文中,我们提出了广义参数对比度学习(GPACO/PACO),该学习在不平衡和平衡数据上都很好地工作。基于理论分析,我们观察到,受监督的对比损失倾向于偏向高频类别,从而增加了学习不平衡的学习难度。我们从优化的角度介绍了一组参数班的可学习中心,以重新平衡。此外,我们在平衡的环境下分析了GPACO/PACO损失。我们的分析表明,GPACO/PACO可以适应地增强同一等级样品的强度,因为将更多的样品与相应的中心一起拉在一起并有益于艰难的示例学习。长尾基准测试的实验表明了长尾识别的新最先进。在完整的Imagenet上,与MAE模型相比,从CNN到接受GPACO损失训练的视觉变压器的模型显示出更好的泛化性能和更强的鲁棒性。此外,GPACO可以应用于语义分割任务,并在4个最受欢迎的基准测试中观察到明显的改进。我们的代码可在https://github.com/dvlab-research/parametric-contrastive-learning上找到。
translated by 谷歌翻译
图形着色是一个经典且关键的NP硬性问题,是分配尽可能不同颜色的连接节点的问题。但是,我们观察到,最新的GNN在图形着色问题中不太成功。我们从两个角度分析原因。首先,大多数GNN都无法将任务概括为同质性的任务,即在其中分配了不同颜色的图形。其次,GNN受网络深度的界定,使其成为一种本地方法,在最大独立集(MIS)问题中已证明这是非最佳选择的。在本文中,我们专注于流行的GNN类的聚合 - 结合GNNS(AC-GNNS)。我们首先将AC-GNN在着色问题中的功能定义为分配节点不同颜色的能力。该定义与以前的定义不同,该定义是基于同质的假设。我们确定了AC-GNN无法区分的节点对。此外,我们表明任何AC-GNN都是本地着色方法,并且任何局部着色方法都是通过稀疏随机图探索局部方法的极限,从而证明了AC-GNN的非典型性财产。然后,我们证明了模型深度与其着色能力之间的正相关。此外,我们讨论了图形的颜色模棱两可,以应对一些实际约束,例如预固化约束。在上面的讨论之后,我们总结了一系列规则一系列规则,这些规则使GNN颜色均等且功能强大。然后,我们提出了满足这些规则的简单AC-GNN变化。我们从经验上验证了我们的理论发现,并证明我们的简单模型在质量和运行时都大大优于最先进的启发式算法。
translated by 谷歌翻译
为了促进视频降解研究,我们构建了一个引人注目的数据集,即“实用的视频Denoising DataSet”(PVDD),其中包含200个SRGB和RAW格式的嘈杂清洁动态视频对。与由有限运动信息组成的现有数据集相比,PVDD涵盖了具有变化和自然运动的动态场景。与使用主要高斯或泊松分布的数据集不同,以合成SRGB域中的噪声,PVDD通过具有物理意义的传感器噪声模型,然后进行ISP处理,将原始域中的现实噪声合成现实的噪声。此外,基于此数据集,我们提出了一个基于洗牌的实用降解模型,以增强现实世界中SRGB视频的视频DeNoising网络的性能。广泛的实验表明,接受PVDD培训的模型在许多具有挑战性的现实视频上实现了优越的DeNo绩效,而不是在其他现有数据集中训练的模型上。
translated by 谷歌翻译
随着预训练的语言模型的发展,对话理解(DU)已经看到了杰出的成功。但是,当前的DU方法通常为每个不同的DU任务采用独立模型,而无需考虑跨不同任务的共同知识。在本文中,我们提出了一个名为{\ em unidu}的统一的生成对话理解框架,以实现跨不同DU任务的有效信息交流。在这里,我们将所有DU任务重新制定为基于统一的立即生成模型范式。更重要的是,引入了一种新颖的模型多任务训练策略(MATS),以动态调整各种任务的权重,以根据每个任务的性质和可用数据在培训期间进行最佳知识共享。涵盖五个基本DU任务的十个DU数据集的实验表明,在所有任务上,提出的UNIDU框架在很大程度上优于特定于特定于任务精心设计的方法。 MATS还揭示了这些任务的知识共享结构。最后,Unidu在看不见的对话领域中获得了有希望的表现,显示了概括的巨大潜力。
translated by 谷歌翻译
基于摄像头的3D对象探测器由于其更广泛的部署而欢迎其比LIDAR传感器较低。我们首先重新访问先前的立体声检测器DSGN,以表示代表3D几何和语义的立体音量构建方式。我们抛光立体声建模,并提出高级版本DSGN ++,旨在在三个主要方面增强整个2d到3D管道的有效信息流。首先,为了有效地将2D信息提高到立体声音量,我们提出了深度扫地(DPS),以允许较密集的连接并提取深度引导的特征。其次,为了掌握不同间距的功能,我们提出了一个新颖的立体声音量 - 双视立体声卷(DSV),该卷(DSV)集成了前视图和顶部视图功能,并重建了相机frustum中的子素深度。第三,随着前景区域在3D空间中的占主导地位,我们提出了一种多模式数据编辑策略-Stereo-lidar拷贝性 - 可确保跨模式对齐并提高数据效率。没有铃铛和哨子,在流行的Kitti基准测试中的各种模式设置中进行了广泛的实验表明,我们的方法始终优于所有类别的基于相机的3D检测器。代码可从https://github.com/chenyilun95/dsgn2获得。
translated by 谷歌翻译
事件摄像机是受到生物启发的视觉传感器,异步代表像素级亮度随着事件流而变化。基于事件的单眼多视图立体声(EMV)是一种利用事件流以估算具有已知轨迹的半密度3D结构的技术。对于基于事件的单眼大满贯,这是一项关键任务。但是,所需的密集计算工作负载使其对于嵌入式平台上的实时部署而具有挑战性。在本文中,通过实现最关键和最耗时的阶段,包括事件反向预测和FPGA上的体积射线计数,提出Eventor作为快速有效的EMV加速器。高度平行且完全管道的处理元素是通过FPGA专门设计的,并与嵌入式臂集成为异质系统,以改善吞吐量并减少记忆足迹。同时,通过重新安排,近似计算和混合数据量化,将EMVS算法重新制定为更硬件的方式。戴维斯数据集的评估结果表明,与英特尔i5 CPU平台相比,Eventor的能源效率最高可提高$ 24 \ times $。
translated by 谷歌翻译
随着日常生活中的自然语言处理(NLP)的部署扩大,来自NLP模型的继承的社会偏见变得更加严重和有问题。以前的研究表明,在人生成的Corpora上培训的单词嵌入式具有强烈的性别偏见,可以在下游任务中产生鉴别结果。以前的脱叠方法主要侧重于建模偏差,并且仅隐含地考虑语义信息,同时完全忽略偏置和语义组件之间的复杂潜在的因果结构。为了解决这些问题,我们提出了一种新的方法,利用了因果推断框架来有效消除性别偏见。所提出的方法允许我们构建和分析促进性别信息流程的复杂因果机制,同时保留单词嵌入中的Oracle语义信息。我们的综合实验表明,该方法达到了最先进的性别脱叠任务。此外,我们的方法在字相似性评估和各种外在下游NLP任务中产生了更好的性能。
translated by 谷歌翻译
变压器是一个潜在强大的视觉任务架构。虽然配备了更多的参数和关注机制,但其性能并不像目前的CNN占主导地位。 CNN通常在计算上更便宜,仍然是各种视觉任务中的领先竞争对手。一项研究方向是采用CNN的成功思路,改善变压器,但它往往依赖于详细阐述和启发式网络设计。观察变压器和CNN在代表学习和收敛速度中是互补的,我们提出了一个称为Vision对学习(VPL)的有效训练框架,用于图像分类任务。 VPL构建由变压器分支,CNN分支和对学习模块组成的网络。通过多级培训策略,VPL使分支机构能够在培训过程的适当阶段来从合作伙伴中学到,并使它们均以更少的时间成本实现更好的性能。没有外部数据,VPL促进VIT-BASE和RESET-50对Imagenet-1K验证的前1个精度分别设定为83.47%和79.61%。各个域的其他数据集上的实验证明了VPL的功效,并表明变压器在与VPL中的不同结构CNN配对时更好地执行。我们还通过消融研究分析了组件的重要性。
translated by 谷歌翻译
在现实世界中收集大型清洁扭曲的训练图像对是非琐碎的,这严重限制了这些受监管的基于学习的图像恢复(IR)方法的实际应用。以前的作品试图通过利用无监督的学习技术来缓解对配对训练样本的依赖来解决这个问题。然而,由于缺乏清洁的图像监督,这些方法通常遭受不令人满意的纹理合成。与纯粹无监督的解决方案相比,具有少量清洁图像(FS-IR)的探索计划(FS-IR)更加可行,以解决这一具有挑战性的真实图像恢复任务。在本文中,我们是第一个调查少量实际图像恢复,并提出失真关系引导学习(称为DRTL)框架。 DRTL为知识图分配,以捕获辅助任务(即,合成失真)和目标任务之间的失真关系(即,具有少量图像的实际失真),然后采用梯度加权策略来指导从辅助任务到目标任务的知识传输。通过这种方式,DRTL可以快速学习来自前后扭曲的最相关的知识来实现​​目标失真。我们将DRTL实例化与预训练和元学习管道集成为一个实施例,以实现失真 - 关系意识FS-IR。在多个基准上的广泛实验证明了DRTL对少量实际图像恢复的有效性。
translated by 谷歌翻译
部分微分方程(PDES)在科学和工程的许多学科中都是普遍的,难以解决。通常,PDE的闭合形式溶液不可用,数值近似方法是计算昂贵的。 PDE的参数在许多应用中是可变的,例如逆问题,控制和优化,风险评估和不确定性量化。在这些应用程序中,我们的目标是解决参数PDE而不是其中一个实例。我们所提出的方法,称为元 - 自动解码器(MAD),将参数PDES作为元学习问题求解,并利用\ Cite {Park2019DeepsDF}中的自动解码器结构来处理不同的任务/ PDE。从PDE管理方程和边界条件诱导的物理知识损失被用作不同任务的培训损失。疯狂的目标是学习一个良好的模型初始化,可以概括不同的任务,最终使未能学习的任务能够更快地学习。疯狂的灵感来自于(猜想)参数PDE解决方案的低维结构,并从流形学习的角度解释了我们的方法。最后,我们展示了疯狂的力量,虽然广泛的数值研究,包括汉堡等式,拉普尔斯方程和时域麦克斯韦方程。与其他深度学习方法相比,MAD表现出更快的收敛速度而不会失去准确性。
translated by 谷歌翻译